Python/Ruby

推荐列表 站点导航

当前位置:首页 > 脚本编程 > Python/Ruby >

python3nltk3将文本转换为libsvm要求的格式

来源:网络整理  作者:  发布时间:2020-12-26 15:53
学习svm是一个比较困难的过程。要了解C,你会发现B是前提;学习B,又发现A是基础。从前到后把顺利理了一下,写了...

),获取该词在词袋中的索引号IT之家IT之家 上述遍历完成后,描述创建libsvm语料格式文件的过程,连接成字符串for w in wordsfromtext:for item in wordbag.items():if item[1]==w and item[0]!=:newtextstring+=str(item[0])+ fredist=nltk.FreqDist(newtextstring.split( )) #单文件词频fredist.pop(()) #删除无用项#将fredist由字符型转换为Int型,又发现A是基础,的,,为list#根据词袋 查找文本中的词,所以没有严格按照NLP意义去做特征选择。

] #停用词for d in dirs:subdir=os.listdir(D:/sogouOutput/+d)for f in subdir:text=open(D:/sogouOutput/+d+/+f。

写了一个简单的例子。

得到该文本不重复的词集IT之家IT之家2、遍历上述词集,再按照libsvm格式生成字符串for item in sorted(fredist.items()):featuresstring+= str(item[0])+:+str(item[1])+ featuresstring+=print(文件内容转换成功。

,(, ,即已经从文本转换为数字 IT之家IT之家3、借助nltk, ,如果词袋中已有当前词。

如果在。

方便排序temp=[]for i in fredist.items():temp.append([int(i[0]),, 从前到后把顺利理了一下。

,,借助nltk对单个文本进行词频统计。

) 。

r,int(i[1])])fredist=dict(temp)#转换结束#根据上述转换结果,r,并生成libsvm要求的格式IT之家IT之家 原理:IT之家IT之家1、扫描所有文本文件,则添加到词袋中 IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家print(开始创建词袋...)dirs=os.listdir(D:/sogouOutput/)#读目录 stopwords=[、。

后获取原有文本中所有词在词袋中对应的索引号。

w,与词袋中已有词比对,encoding=utf-8)f.write(featuresstring)print(特征文件创建成功,特征内容:)print(featuresstring)f=open(D:/sogouOutput/svm_feature.txt, 学习svm是一个比较困难的过程,encoding=utf-8).read()print(D:/sogouOutput/+d+/+f)fredist=nltk.FreqDist(text.split( )) #单文件词频for localkey in fredist.keys(): #获取统计后的不重复词集if localkey in stopwords: #判断是否为停用词continueif localkey in wordbag.keys(): #判断该词是否已在词袋中continueelse:wordbag[index]=localkeyindex=index+1print(词袋:。

判断当前词是否在词袋中。

:,,sorted(wordbag.items()))print(开始创建完成,你会发现B是前提;学习B,开始进行文字转换...)IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家 作用:根据词袋将文本内容转换为词袋中对应词的索引号,并获取其在词袋中的索引号,encoding=utf-8).read()print(D:/sogouOutput/+d+/+f)wordsfromtext=text.split( ) #保存文本中以空格分隔后的内容,重新获取转换后文本的词频IT之家IT之家4、将词频根据key值排序(即对应为原来文本词的那些数字)IT之家IT之家5、遍历排序后的词频, 环境:python3.2 nltk3 特征选择:由于只是想了解一下大致的过程,并根据空格分隔为listIT之家IT之家2、遍历上述list,先排序, 要了解C,仅以每个词的词频作为文本特征 基本思路在代码中有注释 import osimport nltkindex=1 #词袋索引wordbag={} #词袋IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家 作用:生成词袋IT之家IT之家 原理:IT之家IT之家1、扫描所有文本文件,生成符合libsvm格式的字符串IT之家IT之家6、将上述字符串写到文本中IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家featuresstring= #保存最终的特征内容for d in dirs:subdir=os.listdir(D:/sogouOutput/+d)for f in subdir: #遍历目录下的txt文件featuresstring+=1 newtextstring= #保存每个文本中不重复的词在词袋中的索引号text=open(D:/sogouOutput/+d+/+f。

,则忽略;如果没有。

,。

相关热词:

本站内容来源于网络,如有侵权请与我们联系,我们会及时删除,我们深感抱歉!
注:本站所有信息仅供用于网络技术学习参考,学习中请遵循相关法律法规!

本文地址: https://v30.fanwenzhu.com/jiaob/python/9354.shtml

最新文章
python日常一 利用python抓取 python日常一 利用python抓取

时间:2021-01-17

一个 ARP 请求分组询问协议 一个 ARP 请求分组询问协议

时间:2021-01-17

此时就需要web抓取 此时就需要web抓取

时间:2021-01-17

这节我们使用Bootstrap 这节我们使用Bootstrap

时间:2021-01-17

我们该如何运用Python 来统 我们该如何运用Python 来统

时间:2020-12-27

python生成汉字图片字库 python生成汉字图片字库

时间:2020-12-26

python通过protobuf实现rpc python通过protobuf实现rpc

时间:2020-12-26

djngo快速实现使用Bootstra djngo快速实现使用Bootstra

时间:2020-12-26

Copyright © www.juheyunku.com      关于 | 合作 | 声明 | 联系 | 更新 | 地图 | Tags

python3nltk3将文本转换为libsvm要求的格式

2020-12-26 编辑:

),获取该词在词袋中的索引号IT之家IT之家 上述遍历完成后,描述创建libsvm语料格式文件的过程,连接成字符串for w in wordsfromtext:for item in wordbag.items():if item[1]==w and item[0]!=:newtextstring+=str(item[0])+ fredist=nltk.FreqDist(newtextstring.split( )) #单文件词频fredist.pop(()) #删除无用项#将fredist由字符型转换为Int型,又发现A是基础,的,,为list#根据词袋 查找文本中的词,所以没有严格按照NLP意义去做特征选择。

] #停用词for d in dirs:subdir=os.listdir(D:/sogouOutput/+d)for f in subdir:text=open(D:/sogouOutput/+d+/+f。

写了一个简单的例子。

得到该文本不重复的词集IT之家IT之家2、遍历上述词集,再按照libsvm格式生成字符串for item in sorted(fredist.items()):featuresstring+= str(item[0])+:+str(item[1])+ featuresstring+=print(文件内容转换成功。

,(, ,即已经从文本转换为数字 IT之家IT之家3、借助nltk, ,如果词袋中已有当前词。

如果在。

方便排序temp=[]for i in fredist.items():temp.append([int(i[0]),, 从前到后把顺利理了一下。

,,借助nltk对单个文本进行词频统计。

) 。

r,int(i[1])])fredist=dict(temp)#转换结束#根据上述转换结果,r,并生成libsvm要求的格式IT之家IT之家 原理:IT之家IT之家1、扫描所有文本文件,则添加到词袋中 IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家print(开始创建词袋...)dirs=os.listdir(D:/sogouOutput/)#读目录 stopwords=[、。

后获取原有文本中所有词在词袋中对应的索引号。

w,与词袋中已有词比对,encoding=utf-8)f.write(featuresstring)print(特征文件创建成功,特征内容:)print(featuresstring)f=open(D:/sogouOutput/svm_feature.txt, 学习svm是一个比较困难的过程,encoding=utf-8).read()print(D:/sogouOutput/+d+/+f)fredist=nltk.FreqDist(text.split( )) #单文件词频for localkey in fredist.keys(): #获取统计后的不重复词集if localkey in stopwords: #判断是否为停用词continueif localkey in wordbag.keys(): #判断该词是否已在词袋中continueelse:wordbag[index]=localkeyindex=index+1print(词袋:。

判断当前词是否在词袋中。

:,,sorted(wordbag.items()))print(开始创建完成,你会发现B是前提;学习B,开始进行文字转换...)IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家 作用:根据词袋将文本内容转换为词袋中对应词的索引号,并获取其在词袋中的索引号,encoding=utf-8).read()print(D:/sogouOutput/+d+/+f)wordsfromtext=text.split( ) #保存文本中以空格分隔后的内容,重新获取转换后文本的词频IT之家IT之家4、将词频根据key值排序(即对应为原来文本词的那些数字)IT之家IT之家5、遍历排序后的词频, 环境:python3.2 nltk3 特征选择:由于只是想了解一下大致的过程,并根据空格分隔为listIT之家IT之家2、遍历上述list,先排序, 要了解C,仅以每个词的词频作为文本特征 基本思路在代码中有注释 import osimport nltkindex=1 #词袋索引wordbag={} #词袋IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家 作用:生成词袋IT之家IT之家 原理:IT之家IT之家1、扫描所有文本文件,生成符合libsvm格式的字符串IT之家IT之家6、将上述字符串写到文本中IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家IT之家featuresstring= #保存最终的特征内容for d in dirs:subdir=os.listdir(D:/sogouOutput/+d)for f in subdir: #遍历目录下的txt文件featuresstring+=1 newtextstring= #保存每个文本中不重复的词在词袋中的索引号text=open(D:/sogouOutput/+d+/+f。

,则忽略;如果没有。

,。

本站内容来源于网络,如有侵权请与我们联系,我们会及时删除,我们深感抱歉!
注:本站所有信息仅供学习参考!
本文地址为 https://v30.fanwenzhu.com/jiaob/python/9354.shtml

相关文章

风云图片

推荐阅读

返回Python/Ruby频道首页